智能论文笔记

Amharic Text Clustering Using Encyclopedic Knowledge with Neural Word Embedding

Dessalew Yohannes , Yeregal Assabie

分类：自然语言处理 | 机器学习

2021-03-31

在这个数字时代，几乎在每个学科中，人们都在使用自动化系统，这些系统以不同的自然语言以文档格式表示信息。结果，人们对找到，组织和分析这些文件的更好解决方案越来越兴趣。在本文中，我们提出了一个系统，该系统将使用神经词嵌入的百科全书知识（EK）群簇。 EK启用相关概念和神经词嵌入的表示，使我们能够处理相关性的上下文。在聚类过程中，所有文本文档都通过预处理阶段。通过使用EK和Word Embedding模型映射，从每个文档中提取了丰富的文本文档功能。生成了富集特征的TF-IDF加权载体。最后，使用流行的球形K-均值算法聚类文本文档。提出的系统通过Amharic文本语料库和Amharic Wikipedia数据进行了测试。测试结果表明，将EK与单词嵌入文档聚类的使用可提高仅使用EK的平均准确性。此外，改变班级的大小对准确性有重大影响。

translated by 谷歌翻译